探讨:全匿踪联邦学习到底应该怎么做?
近日,业内某隐私计算A公司在公开大会上宣布其实现了“全匿踪联邦学习”,引发业界关注并热议。
据介绍,“全匿踪联邦学习”是指在不暴露用户ID、匿名化条件下进行联邦学习的技术,解决了目前隐私计算方案中普遍存在的“缺少个人授权”、“交集ID泄露”的重大法律风险问题,让机构之间的数据要素价值流通真正合规可信。具有真正匿名化、不暴露任何样本交集、去中心化架构、高性能高精度低误差等特点,可以应用在金融风控、智慧民生等真实场景中。
该公司也对该技术的工作机制,如下图所示:
注:图源该公司公众号推文
简单概况为:“经过了匿名化处理后的样本,参与方持有的是全匿样本的碎片,包括碎片化的标签、碎片化的特征。里面的样本有的是相交的,有的是不相交的。不在交集里的样本也参加训练,但它的值是一个共享的密态0,所以虽然参与计算,但不会产生任何结果上的影响。”从一个总体概括性的角度进行了算法说明,并未深入介绍更多的算法细节。
一项前沿技术总免不了有讨论的声音,业内B公司在平台上发表质疑:“小编通读全文后,仍不知晓采用的何种MPC技术”。该公司也介绍了一种 “符合上述针对多方数据集在无交集泄露、匿名化的情况下实现样本对齐操作,采用的MPC技术为——Circuit-PSI”。并给出其功能定义和实现方式。
隐私集合求交(PSI)是实现隐私计算的一项关键技术,也是纵向联邦学习中的一项关键前置技术。目前常用的PSI算法包括ECDH、KKRT、PSTY等。ECDH是基于椭圆曲线算法的方案;KKRT是结合了Cuckoo hash 以及 batched OPRF,构造出的一个比较高效的基于 OT 的 PSI 协议;PSTY是基于混淆电路的高效PSI协议。
纵观目前业界采用的隐私集合求交技术,大多都是可以保证参与方独有的样本不被暴露,而共有的样本ID则会被多方共享。如不共享,则无法进行后续的联邦训练。“全匿踪联邦学习”则希望在此取得突破。在得到不泄露ID的交集后,接下来的联邦学习前向传播、损失计算、反向传播等过程都应基于密态数据,联邦学习交互过程也需重新构建。在这里,我们想与大家探讨“全匿踪联邦学习”应该怎么去做?欢迎大家在评论区提出关于“全匿踪联邦学习”的宝贵看法。
隐私计算头条周刊(8.28-9.3)
冯登国院士团队重磅论文!《具体高效的安全多方计算协议综述》解读
SCI一区期刊专辑征稿 | 社会大数据隐私、安全与前沿计算主题
姚期智院士:数据、算法、算力为何是数字经济核心技术?
附下载 | 2022年隐私计算技术与行业应用报告合集(33份)
招标 | 近期隐私计算项目招标18(联通、不动产、股权市场、银联等)